iT邦幫忙

2023 iThome 鐵人賽

DAY 13
0
AI & Data

踏上 MLOps 之路:從 Applied Data Scientist 到 MLOps 的轉變與建構系列 第 13

Day 13 Bias, Label and AutoML, Experiment Summarize

  • 分享至 

  • xImage
  •  

在進入後續的 Serving Pipeline 環節之前,我們最後用一天討論一下 Auto ML,Auto ML 的目的是希望將整個訓練的過程,變成一個完全自動的環節,前面我們提到,在特定如風險控制的領域,駭客手法有很強的週期性,每隔一段時間就會有不同的手法,導致你的模型很容易會過一段時間就失效,比起去探索一個可以應變各種可能狀況的模型,加速模型迭代的速度可能是更好的做法,但要做到這點有兩個我們必須要小心的處理,也就是 Bias 和 Label

Bias Mitigation

  • 類別不平衡: 在某些案例中,目標變數的類別可能非常不平衡。這會導致模型對多數類別有更好的性能,而忽略少數類別。常會用各種 Sampling 或是 Weighted Loss Function 等方式來解
  • 行為影響結果: 這裡想表達的是當你已經做了一些行為導致駭客知道他的行跡可能已敗露或是他原本的方法失效時,就會影響結果,這在我們先前提到的 A/B Test 還有 Shadow Test 有提到過
  • 行為週期性: 如上面所說的每一段期間流行的駭客手法可能不同,
  • 特徵偏見: 某些特徵可能在你的數據及上大量影響結果

如何透過自動化的演算法來偵測這些 Bias 是一個需要解決的問題

Label Source

目前的題目主要都是針對 Supervise 的題目,即使是 Unsupervise 的題目,Feedback Loop 也是要驗證模型不可或缺的環節,但是高質量的 Labeling Data 往往是一個很困難得到的數據,Label 大致可以分成以下幾種來源:

  1. 專家審查:通過行業專家審查歷史數據,對疑似詐欺行為進行手動標籤
  2. 用戶回報:來自用戶的舉報或是受害者客訴
  3. 規則引擎:設定特定的條件或規則,例如交易金額異常大或交易位置不一致等,自動標籤可能的詐欺行為。
  4. 先前模型:早期或簡單的預測模型也可用於初步標籤數據
  5. 用戶挑戰:除了模型輸出外,我們可以給用戶挑戰,舉 Recaptcha 的例子,可以透過用戶是否完成 Recaptcha 的結果來一定程度判別用戶是不是機器人
  6. 用戶陷阱:舉例來說,如果模型已經發覺一個駭客行為,但資損不大,可以刻意放過這樣的行為,並後續觀這行為有沒有持續發生

這裡我覺得有一個重點,真實世界的標注資料不一定能非黑即白,很多時候我會將標注至料做一個 Confidnece 程度的排序,像是專家審核,我就會給她很高的 Confidence,但是先前模型輸出,可能就會是相對低的 Confidence

Auto ML

即使有了這些,我們離 AutoML 還是有一定的距離,AWS 和 Google Cloud 都有提供 AutoML解決方案,H2O 和 Scikit-Learn 也都有提供開源的 AutoML 解決方案,都可以參考
https://ithelp.ithome.com.tw/upload/images/20230917/20161911dSBKY1f2vF.jpg

在前 13 天裡,我們將重點放在訓練/ 實驗階段,並以一個風險領域的二元分類的問題 -- Account Takeover Detection 出發,從原本一站式的 Jupyter Notebook 開發,解構出一些常用的元件,並針對一些常用的工具是為什麼目的來做介紹,並提到了一些開源工具,這些工具很多都有重疊的功能,並不一定要全部都用上,然後透過這些工具和元件就可以在實驗階段建構一個 MLOps 系統,我認為 訓練階段的MLOps 系統最終體現,就是一個 AutoML 工具,達到過去實驗所累積的知識底都可以被應用在後續的實驗之中!那就讓我們繼續往 Serving 的方向前進


上一篇
Day 12 Model Governance
下一篇
Day 14 Serving 架構
系列文
踏上 MLOps 之路:從 Applied Data Scientist 到 MLOps 的轉變與建構30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言